记者为什么需要学习人工智能 丨 编译
面对迅猛发展的人工智能,记者要想让公众真正了解人工智能革命的全部潜力,就必须了解人工智能的基本原理,拥有一个更强大的知识库。今天RUC新闻坊为您编译了这篇来自《福布斯》杂志的文章,一起了解一下有关记者与人工智能的知识吧。
作者介绍:Latoya Peterson
Latoya Peterson是2013年福布斯杂志(Forbes Magazine)评选出的30位“30岁以下的精英”(由福布斯杂志于2011年起发起评选,旨在表彰上一年30岁以下在不同领域做出卓越贡献的30位青年才俊。——编者注)中的一位媒体人。她因博客“Racialicious”而著名,该博客主要关注种族和流行文化的交汇内容。此前,她曾担任ESPN旗下的The Undefeated栏目的数字创新副总编,Fusion的特约编辑,The Stream(美国半岛电视台的一家社交媒体驱动新闻节目)的资深数字制作人,以及2012-2013年度在斯坦福大学的奈特新闻奖学金项目的研究员(主攻移动技术和数字接入的研究)。她制作了一个关于女性玩家的YouTube系列专辑,目前正在开展包含VR、AR、机器学习和人工智能的项目。
人工智能是真正的黑匣子
记者们正在报道一种很难解释的现象,甚至对于人工智能这一领域的专家也是如此。更糟糕的是,大多数重要的对话都是闭门进行的。人工智能这一领域的许多重大进展都是专有的(意指是享有专利技术的——编者注),而公众常过度依赖于片面的企业新闻发布,这些新闻将股东利益最大化,并将风险降至最低。与此同时,能公开获取的信息则过于学术化,需要掌握该领域的深度知识才能解读执行摘要(executive summary,意指精简的商业计划书)以外的信息。
为什么记者了解人工智能至关重要?
在人工智能同时影响我们的新闻编辑室和社会之前,记者需要培养对人工智能的熟悉度。我们必须更好地解释这项几乎影响到我们生活方方面面的技术——从确定Netflix网站上出现了哪些电影,到我们是否有资格获得贷款。但为了提升熟悉程度,一个人需要有对那些使人工智能工作的基础设施有充分地理解,这些基础设施指提供系统支持和信息来源的数据集。
首先,数据集及其这些数据集是如何被收集、使用和损害的,这些都会影响系统的结果。这一点似乎显而易见,但即使是一个类似“这个人工智能模型的训练数据(training data)中有哪些信息?”的基本问题,答案也会很复杂。
例如,用于机器学习的一些最重要的数据集是由数百万张图像组成的。通常,程序员可以回答“数据来自哪里”或者“使用什么库生成结果”之类的问题。但是构成库的信息是什么呢?直到最近,这个问题仍旧很难回答。
训练数据需要大量数据才能使其工作,所以通常情况下,大部分库都从一些大型数据存储库收集和编译信息,比如谷歌图像或Flickr。虽然大多数地方都试图确保将输入的数据正确分类,但也可能会产生大规模的错误。
2015年,谷歌犯了一个广为人知的错误。软件工程师Jacky Alcine意识到谷歌照片的图像识别算法将黑人标记为“大猩猩”。“这是一个可怕的种族主义联想,但为什么会发生这样的事情呢?”人工智能领域的大多数专家都知道原因。幕后并没有种族主义工程师制造混乱。只是技术部门在训练数据时使用了更多大猩猩图片,而不是非裔美国人的图片。
解决这一问题仍然棘手:Wired网站发布了该事件的后续,谷歌采取了阻止图像识别系统识别大猩猩的措施,但仍没有解决核心问题。
值得一提的是,谷歌拥有一个来源于用户上传自己照片的数据集。而“大猩猩”事件仅仅是其中一个被发现和公开的错误。
人工智能存在的这些问题比我们想象的更常见,“Google People+AI Research”团队开发了一个名为Facets的学习数据可视化工具的人工智能。目前开源的Facets能够使用数据并实现更清楚的信息可视化。在MoMA R&D沙龙上,研究人员Fernanda Viégas和Martin Wattenberg说明了该系统的天赋,以及它能够展现什么。
通过观察、研究Facets的行为,我们可以发现数据集里的错误和偏见。有些偏见是良性的。例如,绝大多数飞机是蓝色的,这一数据结果就会使系统在判断红色或银色的飞行物是否为飞机时,产生困惑。数据缺失、错误以及人与电脑在分类上存在分歧的地方也能轻易被发现。但是,一些偏见难以纠正,且会造成损害。在这个沙龙上,著名学者Kate Crawford将图片和新闻中潜在的偏见与AI中的分类错误联系起来,例如,为什么网络上最多标记面孔的数据集是78%的白人?
没有简单的结论
对人工智能的研究和理解还没有简单的结论,这些例子都仅仅是揭示了偏见系统广泛影响的表象。许多技术类和数据类记者已经投入于编程规则的学习,我也建议所有记者都应该开始学习计算和编程基础性的工作原理。
一名记者未必一定要成为一名程序员,或者掌握一门像Python这样的程序语言来做与AI相关的报道。一旦记者能关注开发人员是如何解决问题的,就将极大地促进对这些系统构建和设计方式的理解。这也将改善我们在报道这些议题时使用的框架,并增进我们对于这些系统最终将如何影响新闻编辑部的理解。
由于记者不了解人工智能工作的基础知识,我们会容易使自己的视野受到局限,或者使报道言过其辞。Fast.ai的联合创始人Rachel Thomas最近批评了《哈佛商业评论》(Harvard Business Review)的一篇文章(指作者发表的《为何哈佛商业评论弄错了算法和偏见》一文——编者注),并分享了一些适用于记者应如何看待人工智能的经验心得:
“媒体经常通过一系列人类与机器对抗的镜头来展现人工智能的发展:例如在某项任务上谁更能领先一筹。但这种表现框架对于大多数算法运用方式的展现是不准确的,并且也是一种非常局限的思考人工智能的方式。在所有情况下,算法都有人的组成部分,谁来收集数据(以及他们产生了什么样的误差),作出哪些设计决策,这些决策如何执行,如何使用结果来作出决策,利益相关者对于算法的正确使用和局限的理解等等,都需要人的参与。”
理解机器学习以及人工智能有很多关于框架的内容。如果你提出了更好的问题,设置了更好的参数,你将会得到一个更好的结果。而记者接受培训来检验这些框架。我们在工作中这样做是理所应当的。但是,为了真正让我们在公众面前宣示人工智能革命的全部潜力,我们需要在更加强大的知识基础上开展工作。
本期编辑:杨凯文 雷悦雯 解子钰
(点击文末阅读报告原文)
您的支持是我们最大的动力!
特别策划
技术前沿
报道规范
趣闻杂谈
点击“阅读报告原文”